Robuste Spracherkennung auf der Basis recheneffizienter auditiver Modelle
نویسنده
چکیده
∏ = i i e e (2.1.1) Das bedeutet, dass in einem Multiband-Modell der Gesamtfehler immer kleiner ist als der kleinste Teilbandfehler. Die Teilbandfehler werden durch das SNR in den Teilbändern bestimmt i SNR i e e min = (siehe Anhang B). Formuliert man (2.1.1) mit der Phonemerkennrate e s − = 1 und logarithmiert diesen Ausdruck, erhält man die gewünschte Additivität: ∑ − = − i i s s) 1 (log) 1 (log 10 10 (2.2.2) Der zwischen Artikulationsindex und Hörsituation bestehende Zusammenhang wird auch als Artikulationsmodell bezeichnet: ∑ − = − − = i i A k s k AI) 1 (log 10 (2.2.3) Die Konstante k wird dabei so eingestellt, dass der Artikulationsindex für dB SNR 30 ≥ den Wert eins annimmt. ∫ + + = t m c d q t t a t r 0)) (cos() () (θ τ τ ω ω (3.2.1) Das Argument der Kosinusfunktion wird im Allgemeinen als Phasenfunktion bezeichnet: ∫ + + = t m c d q t t 0) () (θ τ τ ω ω φ (3.2.2) Die Einhüllende des Formanten wird mit a(t) bezeichnet, ω c entspricht der Trägerfrequenz, ω m legt die maximale Frequenzabweichung von der Trägerfrequenz fest und θ ist ein konstanter Phasen-Offset. Für die frequenzmodulierende Funktion q(t) gilt dann: 1 |) (| ≤ t q (3.2.3) Die Momentanfrequenz ω i (t) des Formanten erhält man dann durch Differentiation der Phasenfunktion:) () () (t q t dt t d m c i ω ω ω φ + = = (3.2.4) 3. Das Auditorische System 33 Bezieht man in die Signalbeschreibung alle Formanten ein, so kann das Sprachsignal als Linearkombination von AM-und FM-Komponenten in der folgenden Form dargestellt werden: ∑ = k k k t t a t s) (cos) () (φ (3.2.5) In dieser Darstellung sind die voneinander unabhängig variierenden Komponenten ω i (t) und a(t) die bestimmenden Größen. Über die Verwendung der AM-FM-Komponenten zur Bildung robuster Merkmale für die Automatische Spracherkennung wird bspw. in [Dimitriadis-05b] berichtet. Der Einführung des Teager Energy Operator geht nun auf physikalische Betrachtungen eines linearen Oszillators [Kaiser-90] zurück. Die Momentanenergie setzt sich zu jedem Zeitpunkt aus kinetischer und potentieller Energie zusammen, wobei diese nicht nur proportional zum Quadrat der Amplitude sondern auch proportional zum Quadrat der Momentanfrequenz ist. Diese Betrachtung berücksichtigt also ebenfalls die beiden bestim-menden Komponenten des Modulationsmodells. Der kontinuierliche TEO genügt formal der folgenden Beziehung: 2 2) () (~)] …
منابع مشابه
Die Rolle der Phonologie in der multilingualen Sprachtechnologie
Multilinguale Kommunikation fordert die Übertragbarkeit der gängigen Techniken auf eine große Anzahl verschiedener Sprachen und stellt damit hohe Anforderungen an die Sprachtechnologie. Obwohl die Spracherkennung und die Sprachsynthese sich in den letzten Jahren in vielen Bereichen unseres Lebens durchgesetzt haben, sind die Anwendungen häufig von einer bestimmten Domäne abhängig. Auskunftssyst...
متن کاملInvestigations on discriminative training criteria
In this work, a framework for efficient discriminative training and modeling is developed and implemented for both small and large vocabulary continuous speech recognition. Special attention will be directed to the comparison and formalization of varying discriminative training criteria and corresponding optimization methods, discriminative acoustic model evaluation and feature extraction. A fo...
متن کاملDifferenzanalyse und Vereinigung von Modellen auf der Basis ihrer Metamodelle
Die modellgetriebene Softwareentwicklung im Team erfordert entsprechende Technologien zur Analyse von Modelldifferenzen sowie zur Vereinigung verschiedener Modelle. Dieser Artikel stellt die in diesem Kontext von der ikv++ technologies ag entwickelten Konzepte und Lösungen vor. Teamwork und modellgetriebene Softwareentwicklung Modellgetriebene Softwareentwicklungstechnologien vereinfachen und v...
متن کاملMultimodaler Mensch-Maschine-Dialog
Dieser Beitrag beschäftigt sich mit dem multimodalen Dialog zwischen Mensch und Roboter. Beschrieben werden die Problematiken im Bereich der Spracherkennung und der Dialogverarbeitung, wobei im Besonderen auf das Erkennen und Erlernen neuer Worte in der Spracherkennung und der Integration von Emotionen in die Dialogstrategie eingegangen wird. Ferner beschreiben wir die bei uns zum Einsatz komme...
متن کاملEffiziente 2D-Navigation für Mobile Service Roboter
Das Ziel dieser Arbeit ist das Design und die Implementierung eines vollständigen Systems zur robusten Navigation mobiler Roboter in häuslichen Umgebungen. Adressierte Probleme sind die Modellierung von Umgebungen, die Planung von Pfaden sowie die Steuerung eines mobilen Roboters. Das resultierende System wurde erfolgreich in der Robocup@Home-Liga eingesetzt. 1 Motivation und Problemstellung Se...
متن کامل